·机器学习翻译系统通常需要大量可标记的语言实例来进行训练,包括书面和口头语言,这正是像闽南语这种没有文字的语言所不具备的。Meta的研究团队利用普通话作为中间语言来建立伪标签,首先将英语(或闽南语)语音翻译成普通话文本,然后再翻译成闽南语(或英语),并将其加入训练数据。
世界上大约7000种已知的语言中,有近一半的语言仍然在被使用,其中40%没有广泛的书写系统。这些没有文字的语言给现代机器学习翻译系统带来了一个独特的问题,因为它们通常需要先将口头语言转换为书面文字,翻译后再将文字还原为语音,但Meta公司10月19日宣布,已经通过其最新的开源语言人工智能(AI)解决了这个问题。
作为Meta通用语音翻译器(UST)项目的一部分,Meta 为闽南语建立了第一个AI驱动的语音翻译系统,并在视频中展示了一段闽南语和英语之间的实时翻译。该项目正致力于开发更多实时语音到语音的翻译,以便元宇宙居民更方便地互动。
Meta首席执行官马克·扎克伯格与员工演示英语与闽南语的实时翻译。视频来源:Meta(00:31)
希望最终能够实现多种语言的实时翻译
机器学习翻译系统通常需要大量可标记的语言实例来进行训练,包括书面和口头语言,这正是像闽南语这种没有文字的语言所不具备的。为了解决这个问题,“我们使用语音到单元翻译(S2UT)将输入的语音直接转换为之前由Meta开创的声学单元序列。”Meta的研究团队在新闻稿中解释说,“然后,我们从这些单元生成波形。此外,UnitY被采用为双通解码机制,第一通解码器生成相关语言(普通话)的文本,第二通解码器创建单元。”
UnitY语音翻译系统的模型架构。图片来源:Meta
“我们利用普通话作为中间语言来建立伪标签,我们首先将英语(或闽南语)语音翻译成普通话文本,然后我们再翻译成闽南语(或英语),并将其加入训练数据。”Meta的研究团队称。目前,该系统允许讲闽南语的人与讲英语的人交谈,尽管很生硬。该模型一次只能翻译一个完整的句子,但扎克伯格相信,这项技术最终可以应用于更多语言,并将改进到提供实时翻译的程度。
Meta宣布,除了从这个项目中获得开源的模型和训练数据外,该公司正在发布首个基于闽南语语料库的语音翻译基准系统,以及语音矩阵(SpeechMatrix),“一个使用Meta的LASER数据挖掘技术的大型语音到语音翻译语料库”,这个系统将使研究人员能够创建他们自己的语音到语音翻译(S2ST)系统。
“我们希望最终能够实现多种语言的实时语音到语音翻译。我们相信,无论人们身处何地,口语交流都能将他们聚集在一起——即使是在元宇宙。”Meta的研究团队在新闻稿中写道,“我们的人工智能研究正在帮助打破物理世界和元宇宙的语言障碍,以鼓励联系和相互理解。我们期待着扩大我研究,并在未来将这项技术带给更多的人。”
挑战:数据收集、翻译评估
Meta还强调了这项技术面临的挑战。研究人员称,收集足够的数据是他们建立闽南语翻译系统时面临的一个重大障碍。“闽南话是一种所谓的低资源语言,这意味着与西班牙语或英语相比,没有大量的训练数据可供利用。此外,英语到闽南语的翻译人员相对较少,这使得收集和注释数据以训练模型变得困难。”Meta的研究团队在新闻稿里写道。所以他们利用普通话作为中间语言来建立伪标签以及人工翻译,这种方法通过利用类似的高资源语言的数据,大大提高了模型的性能。
此外,对于像闽南语这样的口头语言,评估语音翻译也面临挑战。为了能够进行自动评估,他们开发了一个系统,将闽南语转写成一个标准化的语音符号。
建立没有人类标记的语音翻译模型。图片来源:Meta
Meta公司宣称,最近在无监督语音识别(wav2vec-U)和无监督机器翻译(mBART)方面取得的进展,将为未来翻译更多口语的工作提供参考。“我们在无监督学习方面的进展表明,在没有任何人类注释的情况下建立高质量的语音到语音翻译模型是可行的。该系统大大降低了扩大低资源语言覆盖面的要求,因为许多语言根本没有标注的数据。”